t= 1일때 S_t = (1,3)일 수도 있고, (4,2)일 수도 있음. 이것들은 확률 변수 ( Random Variable )라고 하며,
시간 t에서의 상태 S_t가 어떤 상태 s다를 수식으로 표현하면 아래와 같습니다
A = {up, down, left, right}
이를 감마로 묶어주고 반환값의 형태로 표현하면
$$ \begin{array}{c} v(s) = E[R_{t+1}+\gamma G_{t+1}|S_t=s] \end{array} $$이 보상은 앞으로 받을 것이라 예상하는 보상이기에 가치함수로 표현해보면
$$ \begin{array}{c} v_{\pi}(s) = E_{\pi}[R_{t+1}+\gamma v_{\pi}(S_{t_1})|S_t=s] \end{array} $$큐함수 또한 벨만 기대 방정식의 형태로 나타내면 아래와 같습니다
$$ \begin{array}{c} q_\pi(s,a) = E_{\pi}[R_{t+1}+\gamma q_{\pi}(S_{t+1}, A_{t+1})|S_t = s, A_t = a] \end{array} $$위 식을 이렇게 표현할 수 있습니다
최적의 가치 함수 : 수많은 정책 중에서 가장 높은 보상을 주는 가치함수
더 좋은 정책이라는 것은 가치함수(수(정책을 따라갔을 때 받을 보상들의 합)를 통해 판단할 수 있습니다
최적의 큐함수 $$ \begin{array}{c} q_*(s,a) = max[q_{\pi}(s,a)] \end{array} $$
선택 상황에서 판단 기준은 큐함수!
큐함수 중에서 max를 취하는 것이 최적의 가치함수.
$$ \begin{array}{c} v_*(s) = max[q_*(s,a)|S_t=s, A_t=a] \end{array} $$그렇다면 이제 큐함수를 가치함수로 고쳐서 표현하면!!!! 벨만 최적 방정식이 탄생!!!!!!!!!!
$$ \begin{array}{c} v_*(s) = max E[R_{t+1}+\gamma v_*(S_{t+1})|S_t = s, A_t = a] \end{array} $$